多年来,为各种对象检测任务开发了数据集。海事域中的对象检测对于船舶的安全和导航至关重要。但是,在海事域中,仍然缺乏公开可用的大规模数据集。为了克服这一挑战,我们提出了Kolomverse,这是一个开放的大型图像数据集,可在Kriso(韩国研究所和海洋工程研究所)的海事域中进行物体检测。我们收集了从韩国21个领土水域捕获的5,845小时的视频数据。通过精心设计的数据质量评估过程,我们从视频数据中收集了大约2,151,470 4K分辨率的图像。该数据集考虑了各种环境:天气,时间,照明,遮挡,观点,背景,风速和可见性。 Kolomverse由五个类(船,浮标,渔网浮标,灯塔和风电场)组成,用于海上对象检测。该数据集的图像为3840美元$ \ times $ 2160像素,据我们所知,它是迄今为止最大的公开数据集,用于海上域中的对象检测。我们进行了对象检测实验,并在几个预训练的最先进的架构上评估了我们的数据集,以显示我们数据集的有效性和实用性。该数据集可在:\ url {https://github.com/maritimedataset/kolomverse}中获得。
translated by 谷歌翻译
Constrained reinforcement learning (RL) is an area of RL whose objective is to find an optimal policy that maximizes expected cumulative return while satisfying a given constraint. Most of the previous constrained RL works consider expected cumulative sum cost as the constraint. However, optimization with this constraint cannot guarantee a target probability of outage event that the cumulative sum cost exceeds a given threshold. This paper proposes a framework, named Quantile Constrained RL (QCRL), to constrain the quantile of the distribution of the cumulative sum cost that is a necessary and sufficient condition to satisfy the outage constraint. This is the first work that tackles the issue of applying the policy gradient theorem to the quantile and provides theoretical results for approximating the gradient of the quantile. Based on the derived theoretical results and the technique of the Lagrange multiplier, we construct a constrained RL algorithm named Quantile Constrained Policy Optimization (QCPO). We use distributional RL with the Large Deviation Principle (LDP) to estimate quantiles and tail probability of the cumulative sum cost for the implementation of QCPO. The implemented algorithm satisfies the outage probability constraint after the training period.
translated by 谷歌翻译
图池是用于编码图中层次结构的关键操作。大多数现有的图形池方法将问题作为节点聚类任务提出,从而有效捕获图形拓扑。常规方法要求用户指定适当数量的簇作为超参数,然后假设所有输入图共享相同数量的簇。但是,在簇数可以变化的归纳设置中,该模型应能够表示其池层中的这种变化,以学习合适的簇。因此,我们提出了GMPool,这是一种新型可区分的图形池体系结构,该体系结构会根据输入数据自动确定适当数量的簇数。主要直觉涉及定义为合并操作员的二次形式的分组矩阵,该矩阵诱导了节点成对组合的二进制分类概率的使用。 GMPool首先计算分组矩阵,然后将其分解。对分子财产预测任务的广泛评估表明,我们的方法表现优于常规方法。
translated by 谷歌翻译
最近的深度学习模型在言语增强方面已经达到了高性能。但是,获得快速和低复杂模型而没有明显的性能降解仍然是一项挑战。以前的知识蒸馏研究对言语增强无法解决这个问题,因为它们的输出蒸馏方法在某些方面不符合语音增强任务。在这项研究中,我们提出了基于特征的蒸馏多视图注意转移(MV-AT),以在时域中获得有效的语音增强模型。基于多视图功能提取模型,MV-AT将教师网络的多视图知识传输到学生网络,而无需其他参数。实验结果表明,所提出的方法始终提高瓦伦蒂尼和深噪声抑制(DNS)数据集的各种规模的学生模型的性能。与基线模型相比,使用我们提出的方法(一种用于有效部署的轻巧模型)分别使用了15.4倍和4.71倍(FLOPS),与具有相似性能的基线模型相比,Many-S-8.1GF分别达到了15.4倍和4.71倍。
translated by 谷歌翻译
已知视觉问题答案(VQA)的任务受到VQA模型的问题的困扰,从而利用数据集中的偏见来做出最终预测。已经提出了许多先前基于合奏的偏数方法,其中有目的地训练了一个额外的模型以帮助训练强大的目标模型。但是,这些方法从训练数据的标签统计数据或直接从单局分支中计算出模型的偏差。相反,在这项工作中,为了更好地了解目标VQA模型的偏见,我们提出了一种生成方法来训练偏差模型\ emph {直接来自目标模型},称为GenB。特别是,GENB采用生成网络来通过对抗目标和知识蒸馏的结合来学习偏见。然后,我们将目标模型以GENB作为偏置模型为单位,并通过广泛的实验显示了我们方法对包括VQA CP2,VQA-CP1,VQA-CP1,GQA-OOD和VQA-CE在内的各种VQA偏置数据集的影响。
translated by 谷歌翻译
在本文中,我们提出了一个健壮的模仿学习(IL)框架,该框架在扰动环境动态时改善了IL的稳健性。在单个环境中训练的现有IL框架可能会因环境动力学的扰动而灾难性地失败,因为它无法捕获可以更改潜在环境动态的情况。我们的框架有效地处理了具有不同动态的环境,通过模仿了采样环境动力学中的多个专家,以增强环境动力学的一般变化中的鲁棒性。为了强力模仿多个样本专家,我们将代理商政策与每个样本专家之间的Jensen-Shannon分歧降低了风险。数值结果表明,与常规IL基准相比,我们的算法显着提高了针对动力学扰动的鲁棒性。
translated by 谷歌翻译
最近在各种领域中采用了关于下游任务的大型预训练模型。但是,更新大型预训练模型的整个参数集是昂贵的。尽管最近提出的参数效率转移学习(PETL)技术允许在预先训练的骨干网络内更新一小部分参数(例如,仅使用2%的参数)用于新任务,但它们只能通过最多减少训练记忆要求30%。这是因为可训练参数的梯度计算仍然需要通过大型预训练的骨干模型反向传播。为了解决这个问题,我们提出了梯子侧调(LST),这是一种新的PETL技术,可将训练记忆要求减少更多。与现有的参数效率方法不同,将其他参数插入骨干网络中,我们训练梯子侧网络,梯子侧网络是一个小而独立的网络,将中间激活作为通过快速连接(梯子)从骨干网络中获得的输入作为输入,并进行预测。 LST的内存要求明显低于以前的方法,因为它不需要通过骨干网络反向传播,而是仅通过侧网和梯子连接。我们使用NLP(胶)和视觉语言(VQA,GQA,NLVR2,MSCOCO)任务上的各种模型(T5,CLIP-T5)进行评估。 LST节省了69%的内存成本来微调整个网络,而其他方法仅将其中的26%保存在相似的参数使用中(因此,更多的内存节省了2.7倍)。此外,LST在低内存状态下的适配器和洛拉的精度高。为了进一步显示这种更好的记忆效率的优势,我们还将LST应用于较大的T5型号(T5-Large,T5-3B),比完整的微调和其他PETL方法获得更好的胶水性能。我们对VL任务的实验也完全相同。
translated by 谷歌翻译
Stylegan最近的成功表明,预训练的Stylegan潜在空间对现实的视频生成很有用。但是,由于难以确定stylegan潜在空间的方向和幅度,因此视频中产生的运动通常在语义上没有意义。在本文中,我们提出了一个框架来通过利用多模式(声音图像文本)嵌入空间来生成现实视频。由于声音提供了场景的时间上下文,因此我们的框架学会了生成与声音一致的视频。首先,我们的声音反演模块将音频直接映射到Stylegan潜在空间中。然后,我们结合了基于夹子的多模式嵌入空间,以进一步提供视听关系。最后,提出的帧发电机学会在潜在空间中找到轨迹,该空间与相应的声音相干,并以层次结构方式生成视频。我们为声音引导的视频生成任务提供新的高分辨率景观视频数据集(视听对)。实验表明,我们的模型在视频质量方面优于最新方法。我们进一步显示了几种应用程序,包括图像和视频编辑,以验证我们方法的有效性。
translated by 谷歌翻译
现有研究突出物体检测(SOD)对专注于提取与边缘信息的不同对象和聚合多级功能来提高SOD性能。为了实现令人满意的性能,该方法采用精细的边缘信息和低多级差异。然而,不能实现性能增益和计算效率,这有动力研究了我们研究现有编码器解码器结构中的低效率,以避免这种权衡。我们提出了示踪剂,通过结合引导的跟踪模块来检测具有显式边缘的突出物体。我们使用快速傅里叶变换在第一编码器的末尾采用掩蔽边缘注意模块,以将精细边缘信息传播到下游特征提取。在多级聚合阶段,联盟注意力模块识别互补信道和重要的空间信息。为了提高解码器性能和计算效率,我们最大限度地减少了对对象注意模块的解码器块使用。该模块从精细通道和空间表示中提取未检测到的对象和边缘信息。随后,我们提出了一种自适应像素强度损失函数来处理与传统损耗函数不同的像素相对重要的像素,其同样处理所有像素。与13现有方法的比较显示,示踪剂在五个基准数据集上实现了最先进的性能。特别地,追踪性3(TE3)优于LDF,现有方法,同时需要1.8倍的学习参数,更少的时间; TE3速度快5倍。
translated by 谷歌翻译
最近,在大型文本语料库上预先培训的微调语言模型已经为Vision-and Langual(V&L)任务以及纯语言任务提供了巨大的改进。但是,微调预训练模型的整个参数集变得不切实际,因为模型大小正在快速增长。因此,在本文中,我们将基于适配器的参数高效转移学习技术引入VL-BART和VL-T5等V&L型号。我们在四个不同V&L任务的统一多任务设置中评估我们的方法:VQAV2,GQA,NLVR2和MSCOCO图像标题。通过仔细的培训和彻底的实验,我们将三种流行的基于适配器的方法(适配器,Hyperformer,Compacter)基准,抵御标准的全部微调和最近提出的及时调整方法。我们还通过分享其权重以获得跨任务的知识来增强适配器的效率和性能。我们的结果表明,使用权重共享技术(总参数的4.4%)培训适配器可以匹配微调整个模型的性能。最后,我们提出了一个全面的分析,包括适配器和任务特定提示的组合以及V&L对适配器进行培训的影响。我们的代码可用于:https://github.com/ylsung/vl_adapter。
translated by 谷歌翻译